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(57)i 

Statistical speech models are used to improve the recognition rate 
of automatic speech recognition systems. The inventive method makes 
it possible to construct speech models with small volumes of text or 
without a text Linguistic classes are formed and the speech model, i.e. 
an a-priori probability of word sequences, is determined based on the 
grammatical structure of the text and depending on the vocabulary of the 
text. Set probabilities for words and for linguistic classes are determined 
for this purpose. In addition to creating a new speech model for a 
predetermined area of application, the inventive method also provides 
a means of adapting a pre-existing speech model to a new area of 
application. 

(57) Zusammenfassung 

Um die Erkennungsrate von automatischen Spracherkennungssys- 
temen zu verbessem, werden statistische Sprachmodelle verwendet, Mit 
dem angegebenen Verfahren ist es moglich, Sprachmodelle auf kleinen 
Textmengen bzw. ganz ohne einen Text aufeubauen. Es werden lin- 
guistische Klassen gebildet und das Sprachmodell, also eine a-priori 
Wahrscheinlichkeit fur Wortfolgen, basierend auf der grammatikalischen 
Struktur des Textes und abhangig vom Vokabular des Textes ermittelt 
Dazu werden bedingte Wahrscheinlichkeiten fur Worter und fur Unguis- 
tische Klassen bestimmL Neben der Neuerschaffung eines Sprachmodells 
fur einen vorgegebenen Anwendungsbereich en thai t das Verfahren ebenso eine 
modells an einen neuen Anwendungsbereich. 
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Beschreibuncr 



VERFAHREN ZUR BESTIMMUNG EINER WAHRSCHEINLICHKEIT FOR DAS AUFTRETEN E1NER FOLGE 
VON MINDESTENS ZWEI WORTERN BEI EINER SPR ACHER KENNUNG 



Die Erfindung betrifft ein Verfahren zur Bestimmung einer 
Wahrscheinlichkeit fur das Auftreten finer Folge von 
mindestens. ?wei Wprtern bei einer Spracherkennung durch einen 
10 Rechner. 

Ein Verfahren zur Spracherkennung ist aus [1] bekannt . Dabei 
ist es als ein Bestandteil der Worterkennung ublich, die 
Brauchbarkeit einer Folge aus mingles tens einem Wort 
15 anzugeben. Ein Ma£ fur die se Brauchbarkeit ist eine 
Wahrscheinlichkeit . 

Ein statistisches Sprachmpde.il ist aus [2] bekannt. So 
kennzeichnet die Wahrscheinlichkeit P(W) fur eine Wortf olge W 
20 im Rahmen der Spracherkennung, vorzugsweise groEer 

Vokalmengen , allgemein ein (statistisches) Sprachmodell . Die 
Wahrscheinlichkeit P(W) (sog. : Wortf olgewahrscheinlichkeit ) 
wird angenahert durch ein N-Gramm- Sprachmodell P N (W) : 

n ■ *"*■ - " * " " • •• " 

25 %(w) = HK^il ^i-1, Wi« 2 , • • • /Wi-N+l) , (0-1) 

i = 0 

wobei 



w 



das i-te Wort der Folge W mit (i=l..n), 



n die Anzahl der Worter der Folge W 

bezeichnen. 

30 Fur N=2 ergeben sich aus Gleichung (0-1) sogenannte Bigramme. 

Ferner ist bekannt, bei der Spracherkennung, vorzugsweise im 
kommerziellen Umfeld, ein im Vokabular beschranktes 
Anwendungsgebiet (Domane) zu verwenden. Texte verschiedener 
35 Domanen unterscheiden sich nicht nur im Hinblick auf ihr 
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jeweiliges Vokabular, sondern auch hinsichtlich ihres 
jeweiligen Satzaufbaus. Pur ein Trainieren eines 
Sprachraodells fur eine spezielle DomSne ist eine entsprecherid 
groEe Menge an Texten (Textmaterial, Textkorpus) notwendig, 
5 das jedoch in der Praxis nur s el ten vorhanden Oder nur mit 
immensem Aufwand zu gewinnen ist. 

Ein linguistisches Lexikon ist aus [4] bekannt . Dabei handelt 
es sich urn eine auf einem Rechner verfugbare Zusammenstellung 

10 moglichst vieler Worter einer Sprache zum Zwecke des 

Nachschlagens von linguistischen Eigenschaf ten anhand eines 
Suchprogranms . Fur jeden Worteintrag (sog. Wortvollf orm) 
konnen die fur diese Wortvollf orm relevanten linguistischen 
Merkmale und die zutreffenden Belegungen, also die 

15 linguistischen Werte, entnommen werden. 

Aus [3] ist bekannt, linguistische Klassen zu verwenden. 
Worter eines Satzes konnen auf unterschiedliche Arten in 
linguistischen Merkmalen und linguistischen Werten zugeordnet 
20 werden. In Tabelle 1 sind beispielhaft verschiedene 

1 insist is chen Merkmale und die zugehorigeri Werte dargestellt 
(weitere Beispiele sind in [3] angegeben) . 



1 ing . Merkma 1 


linguistische Werte 


Kategorie 


Subs t ant i v , Verb , Adj ekt iv , 
Ar t i ke 1 , Pr onomen , Ad ve rb , 
Konjunktion, Proposition, etc. 


Typ des 
Substantive 


abstrakt, tierisch, als Teil des 
Korpers, konkret, menschlich, ! 
ortlich, materiell, als Ma£, 
pflanzlich, zeitlich, etc. 


Art des 
Pronomens 


demonstrativ, indef init , 
interrogativ, possessiv, etc . 



fT4&el^f-|L;?f Beispiele fur ling. Merkmale und ling. Werte 

25 



tSOOCaD: <WO . 991474QA1J_> 



WO 99/1 4740 PCT/DE98/02632 



Basierend auf linguistischen Merkmalen 



{£ ± , . . . , f m ) 



(0-2) 



5 und linguistischen Werten 



< v ll- • - v lj> • • - < v ml- • - v mj> 



(0-3) 



wird rjedem Wort mindestens eine linguist is-ctte* Kl&sse 
10 zugewiesen, wobei folgende Abbildungsvorschrif t F Anwendung 



15 



20 



25 



f indet : 



(C 1# . . . , Cfc) = F ((f 1# v llf . . . , vy). . . (f m , v^, . . . , v m j)) (0-4) 



wobei 
f 



m 

m 

v ml 
3 

Ci 

k 

F 



ein linguistisehes Merkmal, 
die Anzahl linguistischer Merkmale, 
/ m j die linguistischen Werte des linguistischen 

Merkmal s £ m , 

die Anzahl der linguistischen- Werte, 
die linguistische Klasse mit i=l..k, 
die Anzahl der linguistischen Klassen, 
eine Abbildungsvorschrif t (Klassif ikator) 
von linguistischen Merkmalen und 
linguistischen Werten auf linguistische 
Klassen 



bezeichnen. 



30 



Zur Veranschauli chung der linguistischen Klasse, des 
linguistischen Merkmals (engl. feature), des linguistischen 
Werts (engl. value) und der Klassen-Bigraram- 
Wahrscheinlichkeit wird nachfolgend ein Beispiel erlautert . 



35 



Ausgegangen wird von dem deutschen Satz : 
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"der Bundestag setzt seine Debatte fort" 

Der Artikel "der" (also das erste Wort) kann im Deutschen in 
sechs lingruistische Klassen (fortan nur: Klassen) unterteilt 
werden, wobei sich die Klassen in Numerus, Genus und Kasus 
unterscheiden. Die folgende Tabelle 2 veranschaulicht diesen 
Zusammenhang : 





Kategorie 


Numerus 


Genus 


Kasus 




Artikel 


Singular 


maskulinum 


Nominativ - 


c 2 


Artikel 


Singular 


f emininum 


Genitiv 


c 3 


Artikel 


Singular 


f emininum 


Dativ 


c 4 


Artikel 


Plural 


f emininum 


Genitiv 


c 5 


Artikel 


Plural 


maskulinum 


Genitiv j 


c 6 


Artikel 


Plural 


neutrum 


Genitiv 



10 



Fur das deutsche- -Substantiv ..."Bundestag.-"- (zweites Wort des 
obigen Beispielsatzes) folgt analog Tabelle 3: 





Kategorie 


Numerus 


Genus 


Kasus 




Substantiv 


Singular 


maskulinum 


Nominativ 


c 8 


Substantiv 


Singular 


maskulinum 


Akkusativ 


c 9 


Substantiv 


Singular 


maskulinum 


Dativ 



yglSgr Klassen C± fur das Wort "Bundestag" 



15 



20 



In diesem Beispiel folgt nun im Hinblick auf Klassen- 
Bigramme, also Bigrammen angewandt auf linguistische Klassen, 
da£ die Klasse C 1# gefolgt von der Klasse C 7 die richtige 
Kombination von Kategorie, Numerus, Kasus und Genus bezuglich 
des Beispielsatzes darstellt. Wenn Haufigkeiten real 
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vorkommender Klassen-Bigramme aus vorgegebenen Texten 
bestimmt werden, so folgt fur das obige Klassen-Bigramm C-l— C 7 
ein zahlreiches Auftreten, da diese Kombination in der 
deutschen Sprache oft vorkoirimt, wohingegen anderer Klassen- 
Bigramme, z.B. die Kombination C 2 — C 8 in der deutschen Sprache 
wegen unterschiedlicher Geni nicht erlaubt ist. Die sich aus 
den auf diese Art gefundenen Haufigkeiten ergebenden Klassen- 
Bigramm- Wahr s che inl i chke i t en sind entsprechend hoch (bei 
oftmaligem Auftreten) bzw. niedrig (falls nicht zulassig) . 

Die Aufgabe der Erfindung besteht darin, ein Verfahren zur 
Bestimmung einer Wahrscheinlichkeit fur das Auftreten einer 
Folge von mindestens einem Wort bei einer Spracherkennung 
anzugeben, wobei ein Sprachmodell fur eine Dotnane aus wenig 
Textmaterial bestimmt wird. 

Hierbei sei angemerkt, da£ eine Bestimmung des Sprachmodells 
ausdrucklich die Erzeugung als auch eine Adaption eines 
bestehenden Sprachmodells umfaEt. 

Die Aufgabe wird gemaS den Merkmalen des Patentanspruchs 1 
gelost . 

Erf indungsgemaE angegeben wird ein Verfahren zur Bestimmung 
einer Wahrscheinlichkeit fur das Auftreten einer Folge von 
mindestens zwei Wortern bei einer Spracherkennung durch einen 
Rechner. Eine Sprache weist linguistische Klassen 



(Ci , c k ) 



(1) 



gemaE 



(C 1# . . . , C k ) = F ((f 1# v 11# . . . , . . (f m , 




wobei 
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f m ein linguistisches Merkmal, 

m die Anzahl linguistischer Merkmale, 

v ml ...v m j die linguistischen Werte des linguistischen 

Merkmal s f m , 

5 j die Anzahl der linguistischen Werte, 

die linguistische Klasse mit i=l..k, 
k die Anzahl der linguistischen Klassen, 

F eine Abbildungsvorschrif t (Klassif ikator) 

von linguistischen Merkmal en und 
10 linguistischen Werten auf linguistische 

Klassen 

bezeichnen, auf. 

Dabei wird einem Wort mindestens eine der linguistischen 
15 Klassen zugeordnet . Eine Wahrscheinlichkeit P(W) fur das 

Auftreten der Folge von mindestens zwei Wortern ergibt sich 
unter Verwendung von Bigrammen zu 

n _ 

P( W ) 55 11 Z Z P ( v il C i) x P ( C ilCi-l) x P(Ci-i| w^) (3) 
i = l Ci Ci-i 

20 

wobei 

W die Folge von mindestens zwei Wortern, 

das i-te Wort der Folge W mit (i=l..n), 
n die Anzahl der Worter der Folge W, 

25 C-j^ eine linguistische Klasse, die zu einem 

Wort gehort, 
C±-± eine linguistische Klasse, die zu einem 

Wort w±-i gehort, 
Zci Summe uber alle linguistischen Klassen 

30 C, die zu einem Wort w-^ gehoren, 

p < w ± I c ± ) die bedingte Wortwahrscheinlichkeit , 

p < c il c i-l> die Wahrscheinlichkeit fur Bigramme (auch: 

Klassen-Bigramme-Wahrscheinlichkeit ) , 
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p ( c i-ll w i-l) die i>edingte Klassenwahrscheinlichkeit 
bezeichnen . 

Hierbei sei angemerkt, daB sich der Term auf eine der 
mindestens einen linguistischen Klasse bezieht, die dem Wort 

aus der Wortfolge W zugeordnet wird. Das gleiche gilt 
entsprechend fur den Term C^^^. Beispielsweise handelt es 
sich bei der Klassen-Bigramm-Wahrscheinlichkeit urn die 
Wahrscheinlichkeit dafur, daS das Wort Wi einer ersten 
linguistischen Klasse angehort unter der Bedingung, da£ das 
vorhergehende Wort w±-.x einer zweiten linguistischen Klasse 
angehort (siehe hierzu einleitendes Beispiel und Erlauterung 
hierzu . 

Die Wahrscheinlichkeiten P^w^lC^) und P(C i |C i _ 1 ) , die 
eingesetzt in Gleichung (3) ein sogenanntes Basissprachmodell 
ergeben, konnen aus einem Textkorpus, also aus einem 
vorgegebeiiem Text mit vorgegebenem Umfang, bestimmt werden. 

Sprachmodelle, die auf linguistischen Klassen basieren, 
bieten insbesondere fur eine Adaption entscheidende Vorteile. 
Das hier vorgestellte Verfahren verwendet die in den 
Sprachmodellen enthaltenen linguistischen Eigenschaf ten. 

Eine Weiterbildung besteht darin, da£ fur einen neuen Text 
anhand eines vorbestimmten Basissprachmodells die 
Wahrscheinlichkeit P(Ci|Ci_x) in das Basissprachmodell fur 
den neuen Text ubernommen wird. 

Wahrscheinlichkeiten fur Klassen-Bigramme des 
Basissprachmodells (siehe [3] und Erlauterung in der 
Einleitung) stellen einerseits eine gramma tikalische Struktur 
des Trainingstextes dar und sind andererseits vom Vokabular 
unabhangig. Geht man davon aus, da£ die neue Domane von 
ahnlicher Textstruktur (grammatikalischer Struktur) wie der 
ursprungliche Trainingstext fur das Basissprachmodell ist, so 
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ist es zweckmafcig, die Wahrscheinlichkeit fur die Klassen- 
Bigramme P(Ci|Ci_i) aus dem Basissprachmodell unverandert zu 
ubernehmen . 

5 Das Vokabular fur die neue Domane, fur die ein Sprachmodell 
bestimmt wird, wird mit Hilfe eines vorgegebenen 
linguistischen Lexikons und unter Verwendung eines 
Klassif ikators F gemaE Gleichung (2) bearbeitet. Fur jedes 
neue Wort aus dem Text wird automatisch mindestens eine 
10 linguistische Klasse bestimmt . Zur detaillierten Beschreibung 
von linguistischen Klassen, linguistischen Merkmalen und 
linguistischen Werten siehe [3], zum linguistischen Lexikon 
siehe [4] und/oder jeweils die Einleitung. 

15 Eine andere Weiterbildung besteht darin, die 

Wahrscheinlichkeit P (wjj C^) nach mindestens einer der 
folgenden Moglichkeiten zu bestimmen; 

a) die Wahrscheinlichkeit P (wi) Ci) wird anhand des Textes 
20 bestimmt ; 

b) die Wahrscheinlichkeit P (w-jj Ci) wird fur ein Wort w ± 
mit Hilfe einer vorgegebenen Wahrscheinlichkeit P(-Wj L ) 
bestimmt; 

25 

c) die Wahrscheinlichkeit P-( w il Ci) wird unter Verwendung 
einer Wortliste bestimmt. 

Eine zusatzliche Weiterbildung besteht darin, anhand der 
30 ermittelten Wahrscheinlichkeit P (w-jj Ci) das 

Basissprachmodell anzupassen. Dies geschieht vorzugsweise 
derart, daS diese ermittelten Wahrscheinlichkeiten P (wi( Ci) 
in das Basissprachmodell aufgenommen werden. 
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Auch ist es eine Weiterbildung der Erfindung, die 
Wahrscheinlichkeit P (c± -j] v±-l) anhand der 
Wahrscheinlichkeit P (wjj C^) wie folgt zu bestimmen: 



P(C ± | Wi) = K x P(wiiCi) x P(C ± ) 



(4) 



wobei 



f 



-1 



K 



= Z p ( w il c ±) x p (c±) 

^i 



(5) 



einen Normal isierungsf akt or bezeichnet . 



Eine andere Weiterbildung der Erfindung besteht darin, eine 
entsprechende Folge von mindestens einem Wort zu erkennen, 
falls die Wahrscheinlichkeit P(W) oberhalb einer vorgegebenen 
Schranke liegt. Ist dies nicht der Fall, so wird eine 
vorgegebene Aktion durchgef uhrt . Diese vorgegebene Aktion ist 
z.B. die Ausgabe einer Fehlermeldung Oder der Abbruch des 
Verf ahrens . 

Im Rahmen einer anderen Weiterbildung bezieht sich der Text 
auf einen vorgegebenen Anwendungsbereich, eine sogenannte 
Domcine . 

Im Rahmen der Erfindung ist es besonders von Vorteil, daS das 
vorgestellte Verfahren einen neuen Text von nur geringem 
Umfang fur die Bestimmung eines Sprachmodells einer neuen 
Domane benotigt. 

Auch ist von Vorteil, da£ Listen von neuen Wortern (mit oder 
ohne Angabe der Wahrscheinlichkeit P(wi)) verwendet werden 
konnen. Domanenbezogene Spracherkennung spiel t in der Praxis 
eine grofie Rolle. Das Verfahren begegnet somit einer realen 
Anforderung und hat sich im Experiment als geeignet und 
uberaus nutzlich erwiesen. Greift man auf das 
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Basissprachmodell zuriick, so reduziert sich die Anzahl der 
neu abzuschatzenden Wahrscheinlichkeiten (Abschatzung nur von 
p ( w il c i) notwendig) erheblich. 

5 Weiterbildungen der Erfindung ergeben sich auch aus den 
abhangigen Anspruchen. 

Anhand der folgenden Figuren werden Ausf uhrungsbeispiele der 
Erfindung naher dargestellt. 

10 

Es zeigen 



Fig.l ein Blockdiagraram, das Schritte eines Verf ahrens zur 
Best intuiting einer Wahrscheinlichkeit fur das Auftreten 
15 einer Folge von mindestens einem Wort bei einer 

Spracherkennung durch einen Rechner umfaEt, 

Fig. 2 ein erstes Adapt ions verfahren zur Bestiinmung der 
Wahrscheinlichkeit P (wjj C^) , 

20 

Fig. 3 ein zweit.es Adapt ions verf ahren zur B e s t i ramu n g ..der 
Wahrscheinlichkeit P (w-jj C^) . 

Fig.l stellt einzelne Schritte des Verf ahrens zur Bestimmung 
25 einer Wahrscheinlichkeit fur das Auftreten einer Folge von 

mindestens zwei Wortern bei einer Spracherkennung durch einen 
Rechner dar. In einem Schritt 101 wird Sprache in 
linguistische Klassen 

30 (Ci, C k ) (1) 



unterteilt : 



(Cx ,C k ) = F ((f 1( v xl , Vlj ). . . (f m , Vinl , v mj )) (2) , 



35 

wobei 
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f m ein linguistisches Merkmal , 

m die Anzahl linguistischer Merkmale, 

v ml ...v m j die linguistischen Werte des linguistischen 

Merkmals f m , 

5 j die Anzahl der linguistischen Werte, 

C± die linguistische Klasse mit i=l..k, 

k die Anzahl der linguistischen Klassen, 

F eine Abbildungsvorschrif t (Klassif ikator) 

von linguistischen Merkmalen und 
10 linguistischen Werten auf linguistische 

Klassen . 

bezeichnen. 

Eine ausfuhrliche Erklarung der linguistischen Merkmale und 
15 der linguistischen Werte findet sich in [31, z.B* auf Seite 
1201 in Tabelle 4 wird eine beispielhaf te Aufstellung von 
linguistischen Merkmalen mit zugehorigen linguistischen 
Werten abhangig von unterschiedlichen Kategorien gezeigt . 

20 In einem Schritt 102 wird einem Wort mindestens eine der 
linguistischen Klassen zugeordnet . Wie in [3] beschrieben 
ist, kann einem Wort eine oder mehrere der linguistischen 
Klassen zugeordnet werden. 

25 Schliefclich wird in einem Schritt 103 die Wahrscheinlichkeit 
P(W) fur das Auftreten der Folge von mindestens einem Wort 
bestimmt durch 



30 



W w II E E p KlCi) x PfcilCi-O x PCCi-^Wi^i) (3) 

i=l Ci Ci^x 

wobei 

W die Folge von mindestens zwei Wortern, 

w A das i-te Wort der Folge W mit (i=l..n), 

n die Anzahl der Worter w^ der Folge W, 
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C-^ eine linguistische Klasse, die zu einem 

Wort w^ gehort, 

eine linguistische Klasse, die zu einem 
Wort w±-i gehort, 
5 Zci die Summe uber alle linguistischen Klassen 

C, die zu einem Wort gehoren, 
p < w ± I c ± ) die bedingte Wortwahrscheinlichkeit , 

p ( c il c i-l) die Wahrscheinlichkeit fur Bigramme (auch: 
Klassen-Bigratrtme, Bigramm- 
10 Wahrscheinlichkeit) , 

P(C i _ 1 |w i _ 1 ) die bedingte Klassenwahrscheinlichkeit 
bezeichnen . 

Die deichung (3) besteht aus einer kaskadierten 
15 Multiplikation dreier Koitrponenten 

P(Gi|Ci.!), P(wi|Ci) und P^i^lwi.i), 

die nachfolgend im einzelnen bestimmt werden . 

20 

Bestimmung der Wahrscheinlichkeit P(Ci|Ci^ 1 ): 

Vokabeln des Textes fur die neue Domane werden mit Hilfe 
25 eines linguistischen Lexikons unter Verwendung eines 
Klassif ikators F, wie in Gleichung (2) gezeigt, 
linguistischen Klassen zugeordnet. Dabei wird jedes neue Wort 
automatisch mindestens einer linguistischen Klasse 
zugeordnet. Ein Basissprachmodell umfaSt Wahrscheinlichkeit en 
30 fur Klassen-Bigramme [3] , wobei diese Wahrscheinlichkeit 
einerseits eine grammatikalische Struktur reprasentiert , 
andererseits von den einzelnen Wortern unabhangig ist. Wird 
nun davon ausgegangen, da£ die Domane, also der spezielle 
anwendungsbezogene Themenbereich, von einer ahnlichen 
35 Textstruktur ist wie der dem Basissprachmodell 
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zugrundeliegende Trainings text , so wird die 

Wahrscheinlichkeit fur Klassen-Bigrairane P(C-jJCi_i) aus dem 
Basissprachmodell unverandert ubernornmen . Eine solche 
automat ische Zuordnung ist moglich, da, weitgehend unabhangig 
5 vom Inhalt eines Textes, davon ausgegangen werden kann, da£ 
linguistische Merkmale und linguistische Werte, also eine 
Abbildung in linguistische Klassen (siehe Gleichung (2)), 
eigentumlich fur eine Sprache sind und daher vorteilhaf t von 
einem Themenbereich (Domane) auf einen anderen Themenbereich 

10 ubertragen werden konnen. Graramatikalische Strukturen vieler 
Trainingstexte sind ahnlich bzw. gleich, unabhangig von dem 
den jeweiligen Trainings texten zugrundeliegenden 
Themenbereich (Domane). Die Wahrscheinlichkeit ^(CilCi-aJ, 
die fur das Basissprachmodell aufgrund von vorausgegangenen 

15 Trainingsdurchgangen bestimmt wurde, stellt in Bezug auf die 
Klassenzuordnung des Vokabulars des. neuen Textes ein 
Grundwissen dar, das nicht erneut bestimmt werden muE, 
sondern, so das Basissprachmodell einen ausreichenden Grad an 
Ausfuhrlichkeit aufweist, ubernornmen werden kann. 

20 



Bestinnming der Wahrscheinlichkeit PCw^C^): 

Die Wahrscheinlichkeit P (w-jj C±) fur alle bezuglich des 
25 Basissprachmodells neuen Worter w^ sind neu zu berechnen und 
die Wahrscheinlichkeit P(wi|Ci) (Wortwahrscheinlichkeit ) des 
im Basissprachmodell vorhandenen Vokabulars ist vorzugsweise 
entsprechend anzupassen. Zur Bestimmung der 
Wahrscheinlichkeit P (wjj Ci) werden nachfolgend drei 
30 unterschiedliche Methoden erlSutert: 

Methode 1 : 

Die Wahrscheinlichkeit P (w^l C^) fur alle neuen Worter Wi der 
35 neuen Domane wird auf Basis des Textes fur die neue Domane 

abgeschatzt. Es wird ausgegangen von einem auf linguistischen 
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Klassen basierenden Basissprachmodell, wobei die neu 
abgeschatzte Wahrscheinlichkeit P (w^j C^) vorzugsweise in das 
Basissprachmodell ubernommen wird und somit eine Adaption des 
Basissprachmodells anhand des neuen Textes erfolgt. 
Vorzugsweise wird diese Vorgehensweise verwendet, wenn der 
neue Text fur die neue Domane einen ausreichenden Umfang 
aufweist. Jedem Wort des neuen Textes wird die im Satzkontext 
ermittelte mindestens eine linguistische Klasse zugewiesen . 
Dies wird anhand des in {33 beschriebenen "Tagging -Tools" 
durchgef uhrt . Die Wahrscheinlichkeit P(wi|Ci) fur jedes neue 
Wort w^ wird anhand des neuen Textes abgeschStzt. 

In Fig, 2 ist ein erstes Adapt ionsverf ahren zur Bestimmung der 
Wort wahrscheinlichkeit P (wjjl Cjj) dargestellt. Mitt els des 
Klassif ikators F 311 und des linguist ischen . Lexikons 206 wird 
unter Verwendung des Tagging - Tool s 202 (siehe detaillierte 
Erlauterungen zu dem Tagging - Tool unter [3]) sowohl' aus einer 
Datenbasis aus groJSen Texten 201 ein grower "getaggter" Text 
203 als auch aus einer Datenbasis aus einem kleinen Text der 
neuen Domane (also dem neuen Text) 207 ein kleiner 
"getaggter" Text 208 bestimmt. Aus dem groSen "getaggten" 
Text 203 wird mittels eines Sprachmodellgenerators 204 ein 
Basissprachmodell 205, das auf linguist ischen Klassen beruht, 
bestimmt . Wie pben ausfuhrlich beschrieben wurde, geht die 
Wahrscheinlichkeit P (Ci| C^— i) unverandert in das 
Sprachmodell fur die neue Domane ein. Aus. dem "getaggten" 
kleinen Text 208 wird mittels eines Adapt ions -Topis 209, das 
eine Abschatzung der Wahrscheinlichkeit P (w^j C^) mittels des 
"getaggten" kleinen Textes durchfuhrt, ein neues, 
vorzugsweise adaptiertes, Sprachmodell 210 bestimmt. Neben 
der beschriebenen Adaption kann ohne Eirischrankung auch ein 
weiteres Sprachmodell erzeugt werden. 

Methode 2 : 

Ein weiteres Verfahren reduziert die durch das 
Basissprachmodell gegebenen einzelnen Wortwahrscheinlich- 
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keiten P (v/jj Ci) und ubertragt den reduzierten Beitrag auf 
das in der jeweiligen linguistischen Klasse Ci zu erganzende 
Vokabular (Worter) . Dies wird abhangig von den jeweiligen 
Werten P(wi) der neuen Worter durchgef uhrt . . 



In Fig. 3 ist dieses zweite Adaptionsverf ahren zur Bestimmung 
der Wahrscheinlichkeit P (wjj C±) dargestellt. Mittels des 
Klassif ikators F 311 und des linguistischen Lexikons 306 wird 
anhand des Tagging-Tools 302 aus einer Datenbasis aus groSen 

10 Texten 301 ein "getaggter" groSer Text 303 bestimmt. Mit 
einem Sprachmodellgenerator 304 wird aus dem "getaggten" 
gro£en Text 303 ein Basissprachmodell 305, das auf 
linguistischen Klassen beruht, erstellt. Aus dem 
Basissprachmodell 305 wird die Wahrscheinlichkeit P(CjJCi_i) 

15 unverandert ubernommen. Anhand einer Wortliste fur die neue 
Domane 307 wird mittels eines Adaptions -Tools 3 08 ein 
adaptiertes Sprachmodell 309 bestimmt. Auch hier kann eine 
Adaption eine VerSnderung oder eine Erzeugung eines 
Sprachmodells umfassen. Das Adaptions -Tool 308 berechnet die 

20 Wahrscheinlichkeit P (wi| Ci) fur neue Worter aus der 

Wahrscheinlichkeit P(w^) und f uhrt eine Renormierung der 
Wahrscheinlichkeit P (w^j Ci) des Basissprachmodells durch. 
Nachfolgend wird dieses Verf ahren detailliert beschrieben. 

25 Die folgenden Grdfcen sind durch das Basissprachmodell 
gegeben : 



5 



Vokabular des Basissprachmodells mit 
i=l, . . . ,N, 



30 



N 



Anzahl des Vokabulars des 
Basis sprachmode 1 1 s , 



.35 



Anzahl der Worter in der jeweiligen Klasse 
C des Basissprachmodells, 



k 



Anzahl der Klassen des Basissprachmodells, 
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P^Cj) fur j=0, . . . ,k; Unigramm- 

Wahrscheinlichkeiten fur die Klassen des 
Basissprachmodells , 

5 

p(c-j| Cj_i) fur j=l,...,k; Bigramm-Wahrscheinlichkeiten 

fur die Klassen des Basissprachmodells, 

P (wil Cj(wi)) und P (Cj(wi) | wi) 

10 Wortwahrscheinlichkeiten des 

Basissprachmodells 

fur alle Worter w^, mit i='l f ... # N f 

und alle Klassen Cj(w^) mit j=0,..., k, 

fur die gilt: Wort liegt in der 
15 linguist ischen Klassen Cj . 

Die Bildung linguistischer Klassen eines Sprachmodells fur 
die neue Domane entspricht der Bildung linguistischer Klassen 
fur das Basissprachmodell . Der Klassif ikator F (siehe 

20 Gleichung (2)) des Basissprachmodells wird ubernoramen. Also 
ist die Anzahl der linguistischen Klassen k unverandert. Es 
wird fur die neue Domane von Texten ahnlicher Struktur wie 
dem Basissprachmodell zugrundeliegende Trainings texte 
ausgegangen. Die Wahrscheinlichkeit der Klassen-Bigramme 

25 PfCilCi-!) und die Wahrscheinlichkeit von Klassen-Unigrammen 
P(Cj) des Basissprachmodells bleiben unverandert. 

Zu betrachten bleiben die Wahrscheinlichkeit P (w-jj Cj(wi)) und 
die Wahrscheinlichkeit P (Cj(wi) | w-jj , die sich jeweils auf 
30 einzelne Worter beziehen. Die Wahrscheinlichkeit P (w-jj Cj(wi)) 
und die Wahrscheinlichkeit P (cj(wi) | w-jj werden fur die nicht 

im Basissprachmodell enthaltenen Worter der neuen Domane neu 
berechnet. Bereits vorhandene Wahrscheinlichkeiten fur die 
Worter des Basissprachmodells sind zu reskalieren. 
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Fur die neue Domane sind folgende Werte gegeben: 

Wh Vokabular der neuen Domane mit h=l, ...,L, 

das nicht im Basissprachmodell enthalten 
ist . 

L Anzahl des Vokabulars im Sprachmodell fvir 

die neue Domane (Zielsprachmodell) , 

L c Anzahl der neuen Worter und der Worter 

Wi des Basissprachmodells in der jeweiligen 
( linguist ischen) Klasse C,- 

15 Pfw^) klassenunabhangige Wprt wahrscheinlichkeit en 

in der neuen Domane. 

Die Wahrscheinlichkeit P(w h ) ist gegeben durch eine Wortliste 
mit Worthauf igkeiten und die Grofie des zugrundeliegenden 
20 Textes. 

Abschatzung der Wahrscheinlichkeit P (cj(wh) | w^) : 
Zur Abschatzung der Wahrscheinlichkeit P (cj(wh) | w^) / jeweils 
fur das neue Vokabular w h , wird davon ausgegangen, dafi 
25 P (Cj(w h ) | Wh) annahernd gleich ist fur Worter, die in 

derselben Klasse Cj liegen. Demnach gilt folgende Naherung: 

x N C 

p I w h ) « — x £ P (Cj I w ± ) (6) , 

c i=l 

30 wobei alle Worter des Basissprachmodells bezeichnet, die 
in der Klasse Cj liegen. 
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Fur die folgenden Ausfuhrungen wird exemplarisch eine Klasse 
Cj untersucht . Zur vereinf achten Darstellung wird im 
folgenden diese Klasse Cj als Klasse C bezeichnet . 

5 Vorhandene Wahrscheinlichkeitswerte sind zu renormieren. 
Nachfolgend werden die "alten" Werte mit einer Tilde 
gekennzeichnet . 

Eine weitere Naherungslosung fur die Gleichung (6) ist die 
10 Summe uber die Worter w^, fur die alle linguistischen Klassen 
mit den Klassen des neuen Wortes ubereinstimmen. 

Zur Berechnung der neuen Wahrscheinlichkeit P (w h | C (w h )) bzw. 
zur Renormierung der gegebenen Wahrscheinlichkeiten 
15 PCw^lCtw^)) wird folgendes Verfahren angewandt : 

1) Bestintmung des Anteils a der neuen Worter im 
Wortschatz 

20 2) Renormierung von 

p(w) (7) 

mi t : 

25 

P(w ± ) = (l - a) x P(w ± ) (8) 

Bestimmung des Anteils a gemafi Gleichung (11) 

30 3) Bestimmung des Anteils 1-Yc der neuen Worter in der 

Klasse C, 

4) Bestimmung von P (wh | c) gemaS Gleichung (17), 
35 5) Bestimmung von y c nach Gleichung (16), 
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6) Bestiinmung der Wahrscheinlichkeit P (w^ | C (w^)) durch: 
P(w h |C) = ^^P(w h |C) (9) , 

5 siehe auch Gleichung (16) . Der Faktor kann als 

Quotient der Anteile der alten Worter in der 
linguistischen Klasse C und dem Anteil des alten 
Wortschatzes im Gesamtwortschatz interpretiert werden. 

10 Zur Bestimmung des Anteils a folgt mit Gleichung (8) : 

Nq Lq 

i = = E p + 2>(*h) = 

i = l i = l h = N c +l 

(10) , 

= (l- a) x 2P( Wi ) + Ep(w h ) 
i = l h = N c +l 

daraus folgt : 

a = Z p ( w h) (11) . 

h = N c +1 



Zur Bestimmung des Anteils Jq wird der Satz von Bayes auf 
20 Gleichung (6) (siehe hierzu [5]) angewandt . Es folgt: 

Anhand von Gleichung (12) und unter Anwendung der 
25 Normierungseigenschaf t fur Wahrscheinlichkeitswerte (siehe 
[6]) kann gezeigt werden: 
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i-1 h=£ +1 N c £ »<»i> 



20 

P (w^ | C) 

= 1 (13) . 



Fur 



P(«i IP) = y.c x P(wi lc) 



(14) 



10 



mit Yq < 1 und ? (wi | c) als alte (nicht renormierte) 
Verteilung, gilt: 



x y c = 1 



(15) 



Daraus folgt mit Gleichung (8) 



15 



YC 



1 + 



1 - a 



L C 

Z p K l c) 

h=N c +l 



-1 



(16) 



20 



mit 



Methode 3 



(17) 



Die Wahrscheinlichkeit P (w-jj C-jJ fur bezuglich des 
25 Basissprachmodells neue Worter wird unter Verwendung einer 
entsprechenden Wortliste angenahert . Bei dieser 
Vorgehensweise wird die Losungsstrategie von dem unter 
•Methode 2' beschriebenen Verfahren ubernommen. Die hier 
nicht vorhandene Wahrscheinlichkeit Pfw^) fur die neuen 



tSOOCJD: <WO 9&1 4740A 1 J_> 



WO 99/14740 



PCT/DE98/02632 



21 

Worter w^ wird angenahert . Dies erf olgt in Abhangigkeit zu 
einer Hauptkategorie HC des jeweiligen Wortes w^. Es ergibt 
sich naherungsweise : 



P(w h ) * 



aus HC 



Xp(wi|Cj) x p( Cj ) 



l c j("i) 



(18) 



10 



Hierzu werden Eigenschaf ten von Wortern w-^ des 
Basissprachmodells verwendet . N HC ist eine Anzahl des 
Vokabulars des Basissprachmodells, das in der Hauptkategorie 
HC liegt. Die Summierung lauft uber alle Klassen Cj des 

Basissprachmodells, zu denen das jeweilige Wort gehort . 



Bestiiraming der Wahr s che inl i chke i t P (C^.^ | w^.^) : 

15 

Schliefclich wird die Wahrscheinlichkeit P^i^ijwi^!) wie 
nachfolgend beschrieben bestimmt. Es sei angemerkt, da£ in 
Gleichung (3) die Wahrscheinlichkeit P (Ci-^ wi_ x ) einen 
Index ' i-1 1 aufweist, der nachfolgend zur Vereinf achung als 
20 Index i gesetzt wird. 

Die Wahrscheinlichkeit P (CjJ w-jj ergibt sich jeweils aus der 
Wahrscheinlichkeit P (w^j CjJ ( die wie oben beschrieben, 
bestimmt worden ist: 

25 

P (Ci| Wi) = K x p(wi| Ci) x p( Ci ) (4) 
mit einem Normal isierungsf akt or 



30 



K = 



S p ( w il Ci) x P (C ± ) 



-1 



(5) 
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Die linguistische Klasse Ci durchlauft dabei alle fur das 
Wort moglichen linguistischen Klassen. Die 
Wahrscheinlichkeit P(C±) wird aus dem Basisspraehmodell 
ubernoramen (Unigramm-Wahrscheinlichkeit fur jeweilige 
5 linguistische Klasse des Basissprachmodells) . 
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Im Rahmen dieses Dokuments wurden folgende Verof f entlichungen 
zitiert : 

[1] G. Ruske: "Automatische Spracherkennung - Methqden der 
Klassif ikation und Merkmalsextraktion" , Oldenbourg 
5 Verlag, Munchen 1988, ISBN 3-486-20877-2, Seiten 1-10. 

[2] L. Rabiner, B.-H. Juang: "Fundamentals of Speech 
Recognition", Prentice Hall 1993, S. 447 -450. 

[3] P. Witschel : "Constructing Linguistic Oriented Language 
Models for Large Vocabulary Speech Recognition", 3 rd 
10 EUROSPEECH 1993, Seiten 1199-1202. 

[4] F. Guethner, P. Maier : "Das CISLEX-Worterbuchsystem" , 
CIS-Bericht 94-76-CIS, Universitat Munchen, 1994. 

[5] W. Feller: "An Introduction to Probability Theory and its 
Applications", John Wiley & Sons, 1976, Seiten 124,125. 

15 [6] W. Feller: "An Introduction to Probability Theory and its 
Applications", John Wiley & Sons, 1976, Seite 22. 
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Patentanspruche 



Verfahren zur Bestimmung einer Wahrscheinlichkeit fur das 
Auftreten einer Folge von mindestens zwei Wort em bei 
einer Spracherkennung durch einen Rechner, 
a) bei dem eine Sprache linguistische Klassen aufweist: 



(C lf . . . , C k ) = F ((f i# v 11# Vl j). . . (f m , Vtnl , 



))• 



10 



15 



20 



25 



wobei 
m 

v ml . . 



3 

k 
F 



'nrj 



ein linguistisches Merkmal, 
die Anzahl linguistischer Merkmale, 
die linguistischen Werte des 
-linguist is chen Merkmals f m , 
die Anzahl der. linguistischen Werte, 
die linguist ische Klassen, 

die Anzahl der linguistischen Klassen, 
eine Abbildungsvorschrif t 
(Klassif ikator) von linguistischen 
Merkmal en und linguistischen Wert en auf 
linguistische Klassen 

bezeichnen 

b) bei dem einem Wort mindestens eine der linguistischen 
Klassen zugeordnet wird; 

c) bei dem die Wahrscheinlichkeit fur das Auftreten der 
Folge von mindestens zwei Wortern bestimmt ist durch: 



*( w ) « fl Z Z p Kl c i) * p ( c il c i-i) * p (ci-ii "i-i) 

i=l Ci Ci^i 



30 



wobei 
P(W) 

W 

W4 



Wahrscheinlichkeit fur das Auftreten der 
Folge von mindestens zwei Wortern 
die Folge von mindestens zwei Wortern, 
das i-te Wort der Folge W mit (i=l..n), 
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n die Anzahl der Worter der Folge W, 

eine linguistische Klasse C, die zu 

einem Wort gehort, 
0^.2 eine linguistische Klasse, die zu einem 

Wort w^.-l gehort, 
Zci die Summe uber alle linguist ischen 

Klassen C, die zu einem Wort gehoren, 
p < w il c i) die bedingte Wortwahrscheinlichkeit , 

p ( c il c i-l) di - e Wahrscheinlichkeit fur Bigramme 

(auch: Klassen -Bigramme, Bigramm- 

Wahrscheinlichkeit) , 
p < c i-ll w i-l) die bedingte Klassenwahrscheinlichkeit 

bezeichnen. 

2. Verfahren nach Anspruch 1 # 

bei dem fur einen Text anhand eines vorbestimmten 
Basissprachmodells die Wahrscheinlichkeit P^ICi^) fur 
den Text bestimmt wird, indem die Wahrscheinlichkeit 
p ( c il c i-l) aus dem Basissprachmodell ubernommen wird. 

3 . Verfahren nach Anspruch 2 , 

bei dem die Wahrscheinlichkeit P(wi|Ci) nach mindestens 
einer der folgenden Moglichkeiten bestimmt wird: 

a) die Wahrscheinlichkeit P (wi| Ci) wird anhand des Textes 
bestimmt; 

b) die Wahrscheinlichkeit P (w^) Ci) wird fur ein Wort 
mit Hilfe einer vorgegebenen Wahrscheinlichkeit P(wi) 
bestimmt; 

c) die Wahrscheinlichkeit P (w-jj Ci) wird unter Verwendung 
einer Wortliste bestimmt. 



4 . 



Verfahren nach Anspruch 3 , 

bei dem anhand der ermittelten Wahrscheinlichkeit 
p ( w il c i) das Basissprachmodell angepafct wird. 
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Verfahren nach Anspruch 3 Oder 4, 

bei dem die Wahrscheinlichkeit P (Ci| wjj anhand der 
Wahrscheinlichkeit P (wjj C±) wie folgt bestimmt wird: 

P (Ci| w ± ) = K x p( Wi | C ± ) x P(C ± ) , 

r 

wobei 



K = 



-1 



Z P C±) x P (C ± ) 

10 einen Normalisierungsf aktor bezeichnet. 

6. Verfahren nach einem der vorhergehenden Anspruche, 
bei dem, wenn die Wahrscheinlichkeit P(W) fur das 
Auftreten einer Folge von mindestens einem Wort oberhalb 

15 einer vorgegebenen Schranke liegt, die entsprechende 

Folge von mindestens einem Wort erkannt wird, ansonsten 
eine vorgegebene Aktion durchgefuhrt wird. 

7 . Verfahren nach Anspruch 6 , 

20 bei dem die vorgegebene Aktion eine Ausgabe einer 

Fehlermeldung oder AnlaS fur einen Abbruch des Verf ahrens 
ist . 

8. Verfahren nach einem der Anspruche 2 bis 7, 
25 bei dem sich der Text auf einen vorgegebenen 

Anwendungsbereich bezieht . 
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